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SITUAÇÃO ACTUAL 


Rede Principal de Infraestruturas e Galeria Técnica Subterrânea (5 Km), já construída. 

[ nstituto de Soldadura e Qualidade (ISQ) em actividade desde Novembro 93. 
Edifícios para instalação de PME (fase 1), já construídos. 
Edifício do Centro de Informática do BCP, já concluído. 

Edifícios do Núcleo Central, Incubadora e PME (fase Il), em fase adiantada de construção. 
| nfrastruturação do lote do INESC, já concluída. 
Construção do Edificio do Centro de Informática da SIBS, prestes a iniciar-se. 
Pp rograma de Instalação do IST, já concluído. 


Pp rocesso de candidatura e selecção de empresas para instalação no Taguspark, em curso. 
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Em 1994 a TÉCNICA publicou 
quatro números. 

Um deles, o número único de 1993, 
Disto se afere o novo ritmo, conseguido. 

Um desses números foi em memória de Duarte Pacheco 
tal como nos 75 anos do I.S.T. se salientou Bensaúde. 
História da Escola e de Quem nela se empenhou 

e construiu. Justo que assim é e foi. 

Mas 

a vocação primeira da Técnica 

é a investigação e desenvolvimento. 

Assim se volta à sua estrutura característica: 

Artigos Convidados, Comunicações Científicas, 

Notas sobre Ciência, Tecnologia e Desenvolvimento. 
Rubrica esta, deserta, sem originais. Porquê? 

De um esforço grande, 

Ajudado e encorajado, como sempre, 

pelo Conselho Directivo do Instituto Superior Técnico, 
esperamos 

que este espaço se preencha plenamente 

com notas, numerosas e diversas. 

Sintéticas, densas, rigorosas, 

permitindo, 

comparar e medir avanços, 

sentir e avaliar o que é novo. 

Uma página apenas, duas no máximo, 

para que o noticiário seja rico e vário. 

Respondemos, julgamos, 

a um desejo que pressentimos. 

Nesse espírito e para que assim seja, 

nos despedimos neste número de alguns artigos 

já recebidos 

sem dúvida interessantes, mas demasiado extensos 
relativamente à finalidade que se visa: 
maior e nova diversidade, 

fonte de maior interesse e colaboração. 
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A FUSÃO NUCLEAR 
CONTROLADA, O PROGRAMA 
COMUNITÁRIO DE FUSÃO E A 
PARTICIPAÇÃO PORTUGUESA 


J.A.C. Cabral, M.E. Manso e C.A.F. Varandas 
Associação EURATOM/ST, Centro de Fusão Nuclear 


1. INTRODUÇÃO 


Existem duas vias bem conhecidas para a obtenção de energia por reac- 
ções nucleares: a da fissão de um elemento pesado, como o Urânio ou o 
Plutónio, e a da fusão de dois elementos leves, como os isótopos do Hidro- 
génio. É hoje mundialmente reconhecido o enorme potencial da fusão nu- 
clear controlada, como fonte de energia economicamente competitiva, tecni- 
camente segura, virtualmente inesgotável e respeitadora do meio ambiente. 


Um dos méritos da fusão nuclear consiste em queimar combustíveis abun- 
dantes (deutério e lítio) e utilizar tecnologias muito avançadas, que permitem 
que qualquer anomalia verificada no funcionamento dos reactores leve ime- 
diatamente à sua paragem. Por outro lado, a produção de energia por fusão 
nuclear não origina poluição atmosférica, não provoca chuvas ácidas nem 
contribui para o efeito de estufa. A quantidade de trítio envolvida nestes re- 
actores é muito pequena e não causa problemas, dada a sua pequena 
semi-vida. À radioactividade da estrutura interna do reactor, causada pelo 
bombardeamento pelos neutrões produzidos nas reacções de fusão, pode 
ser minimizada pela escolha selectiva de materiais de baixa activação, não 
sendo necessário armazenar, por tempos de escala geológica, resíduos ra- 
dioactivos. 

Com este artigo pretende-se dar uma breve perspectiva da investigação in- 
ternacional em fusão nuclear. Uma maior relevância é dada aos aspectos 
relacionados com o Programa Comunitário de Fusão, fazendo-se salientar a 
contribuição portuguesa. Dentro deste programa, um ênfase especial é dado 
ao confinamento magnético e em particular à investigação em “tokamaks”. 


2. AS REACÇÕES DE FUSÃO NUCLEAR 
As reacções mais adequadas à produção de energia por fusão nuclear, são 


as que envolvem dois isótopos do hidrogénio, ou um núcleo de deutério e 
outro de “He, gás raro que existe em abundância à superfície da Lua. 


D+D-= T(1.01 MeV)+p (3.03 MeV) (1) 
D + D-»ºHe (0.82 MeV) + n (2.45 MeV) (2) 
D+T “He (3.52 MeV)+n (14.06 MeV) (3) 
D +ºHe — “He (3.67 MeV) + p (14.67 MeV) (4) 


A reacção que apresenta a maior secção eficaz, não só às temperaturas ac- 
tualmente atingidas mas também até aos 400 keV, é a que envolve os iões 
de deutério e de trítio. Esta reacção apresenta um grande saldo energético, 
transportado maioritariamente pelo neutrão de 14 MeV. O deutério existe em 
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abundância na água do mar (1 gr de deutério em 50 litros de água) mas o 
trítio tem que ser obtido, por exemplo a partir do lítio, metal leve abundante 
nos granitos, (3g de trítio por cada 6-7 g de lítio), através das reacções 


Li+n=T+'He+n-2.5 MeV (5) 
Lis n- T+ “He + 4.8 MeV (6) 


A inclusão de uma manta de lítio a forrar a parede interna do reactor permi- 
tirá obter o trítio directamente a partir dos próprios neutrões da reacção (3) 
podendo, em conjunto, esta reacção e a (6) serem escritas na seguinte 
forma sintética 


D + ºLi — 2 “He + energia (7) 


A níveis actuais de consumo, as jazidas de lítio conhecidas poderiam man- 
ter os reactores de fusão a trabalhar por cerca de um milhar de anos. 


Se o avanço da ciência e da tecnologia vier a permitir compensar a reduzida 
secção eficaz das reacções (1) e (2) às temperaturas actualmente atingidas, 
poderemos ter reactores a queimar apenas deutério, obtendo-se neste caso 
uma fonte de energia praticamente inesgotável. 


3. SOLUÇÕES PARA A OBTENÇÃO DA ENERGIA DE FUSÃO 


Para que dois núcleos leves se possam fundir é necessário que consigam 
aproximar-se suficientemente, contrariando a força de Coulomb que os re- 
pele. A elevação da temperatura iónica (T,) para valores adequados (10-20 
keV para a mistura D-T), fornece a uma larga percentagem dos iões uma 
energia cinética suficiente para vencerem a barreira electrostática e se fun- 
direm com o ião com que colidem. Para que se possa gerar uma potência 
significativa é necessário que a densidade do plasma (n,) seja elevada e 
que as perdas de potência, por transporte ou por radiação, sejam limitadas, 
isto é que se confine o plasma termonuclear. O confinamento pode ser de 
dois tipos: magnético ou inercial. 


3.1. O confinamento magnético 


No confinamento magnético, as partículas carregadas do plasma, iões e 
electrões, são isoladas das paredes da câmara, através de complicados sis- 
temas de campos magnéticos, devido ao facto de aquelas partículas se mo- 
verem em trajectórias aproximadamente helicoidais, ao longo das linhas de 
força do campo magnético, apenas difundindo muito lentamente através de- 
las. Utilizam o confinamento magnético algumas máquinas lineares, como 
por exemplo a “Reversed Field Pinch" e outras toroidais, como o “Stellara- 
tor” e o “Tokamak”, 


A capacidade de armazenar as partículas carregadas e de evitar as perdas 
de potência pode ser medida pelo valor do chamado tempo de confinamento 
da energia (T) , Isto é, pela relação entre a energia cinética total do plasma 
e a potência externa aplicada para a manter, ou por outras palavras, a es- 
cala de tempo característica do arrefecimento do plasma, quando se desli- 
gam as suas fontes de potência. Num reactor de fusão, os valores de T, n, 
e T devem obedecer ao critério de Lawson expresso por 


ne T;tT>5x10mºskeV (8) 
com valores típicos de T, - 10-20 keV,n,.- 2-3 x 10º mºetT-1-25, 


3:11. OQ “tokamak” 


Das várias configurações magnéticas, a do “tokamak” é a que assume maior 
importância no Programa Comunitário de Fusão (PCF). Num “tokamak” exis- 


tem três tipos de campo magnético: (|) — o toroidal, produzido pelas bobines 
transversais; (ii) — o poloidal interno, criado pela corrente toroidal induzida 
no plasma e (iii) — o vertical e o horizontal, gerados por bobines toroidais ex- 
ternas, e destinados a manter o equilibrio da coluna de plasma. Com este 
conjunto de campos magnéticos e com a utilização de limitadores ou de di- 
versores, consegue-se manter o plasma quente isolado das paredes do “to- 
kamak”. O plasma é produzido por uma variação rápida da tensão aplicada 
ao primário de um transformador de núcleo de ferro, do qual o anel de 
plasma de pré-ionização constitui o secundário de uma só espira. Os gran- 
des “tokamaks” mundiais existentes actualmente são: JET (Europeu), TFTR 
(EUA), JT6O-U (Japão), TORE SUPRA (França), T15 (Rússia), DII-D 
(EUA), ASDEX-U (Alemanha) e FTU (Itália). 

Para se conseguir obter energia significativa num reactor nuclear (Fig. 1) é 
necessário realizar uma série de etapas, de entre as quais se salientam: 


Schematic Diagram of a Fusion Reactor 
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Fig. | — Desenho esquemático de um reactor de fusão nuclear. 


(1) — obter um alto grau de vazio no interior do “tokamak”; (ii) — injectar e 
pré-ionizar o gás neutro; (iii) — aumentar a densidade do plasma pelo au- 
mento gradual da corrente induzida no “tokamak”, provocando o seu aqueci- 
mento ohmico (efeito de Joule); (iv) — confinar o plasma quente mediante o 
uso de limitadores metálicos ou de diversores magnéticos; (v) — desenvolver 
métodos de aquecimento adicional do plasma, por injecção de potência de 
RF ou de feixes de neutros de grande energia; (vi) — eliminar as instabilida- 


mn a 


des do plasma, (“kink”, “sausage”, “MHD”, “sawtooth”, “snakes”, “monsters”, 
filamentação, etc) em especial as que levam à diminuição ou perda do confi- 
namento (disrupções); (vil) — aumentar o tempo de confinamento da energia; 
(viii) — atingir parâmetros que satisfaçam o critério de Lawson; (ix) — remover 
eficazmente as chamadas “cinzas de Hélio”, produto da fusão da mistura D- 
T, mas não tão depressa que as partículas o. se vejam impedidas de aque- 
cer o plasma; (x) — controlar o fluxo de partículas e de energia para os limi- 
tadores ou para as placas colectoras dos diversores magnéticos, de modo a 
evitar o seu sobreaquecimento e destruição; (xi) — realimentar o “tokamak” 
para se manterem descargas de longa duração através, por exemplo, de in- 
jecção de “pellets” de D ou de D-T em estado sólido; (xii) — atingir a cha- 
mada ignição, isto é a fase em que o aquecimento provocado pelas particu- 
las q é suficiente para manter a temperatura do plasma; (xill) — dimensionar 
as mantas contendo lítio que rodeiam o plasma e que se destinam a absor- 
ver os neutrões rápidos, gerando trítio e convertendo a sua energia cinética 
em calor; (xiv) — aproveitar esse calor para o produção de vapor para as tur- 
binas de um gerador de electricidade convencional; (xv) — controlar a radio- 
actividade das paredes do “tokamak” de modo a que não ultrapasse limites 
razoáveis, pela utilização de materiais de baixa activação; (xvi) — desenvol- 
ver sistemas de controle à distância do funcionamento dos reactores; (xvii) — 
estudar a utilização da robótica para as operações de modificação e de re- 
paração de componentes no interior da máquina em ambientes radiactivos; 
(xviil) — estudar o impacto provocado pelos reactores de fusão no meio am- 
biente e estabelecer regras que conduzam à segurança da sua operação. 


O tempo de confinamento da energia, T, aumenta com os raios maior e me- 
nor do tokamak. Daí a necessidade de termos máquinas cada vez maiores. 
De facto, o que distingue um grande “tokamak” (JET) de um pequeno 
(ISTTOK) não é o ganho de T, (um factor 5) nem o de n, (um factor 10) mas 
sim o de 7 (factor 2000). Dai que a construção de grandes máquinas não 
seja devida à megalomania dos cientistas da fusão, mas sim à absoluta ne- 
cessidade de se aumentar 7 de modo a se satisfazer o critério de Lawson. 
Trata-se de uma solução onerosa, devido aos altos custos associados à cri- 
ação de campos nagnéticos muito intensos (5-7 T) em volumes da ordem 
das centenas de metros cúbicos. 


O progresso da investigação em fusão nuclear por tokamaks pode ser apre- 
ciado pelo rápido decrescimento da relação entre o valor do produto de fu- 
são (n, T, T) requerido pelo critério de Lawson e o maior valor desse produto 
obtido num determinado ano. Esta relação era de: 25.000 em 1970, 700 em 
1980, 100 em 1983, 20 em 1988, 10 em 1989 e 6 em 1991. A ignição está 
prevista para o ano de 2005. 


3.1.2. O “stellarator” 


O “stellarator” moderno é uma máquina toroidal em que a helicidade das li- 
nhas de força do campo magnético principal, em vez de ser obtida pelo 
campo poloidal interno produzido pela corrente toroidal, como no “tokamak”, 
resulta directamente do campo produzido pelas bobines do seu complicado 
solenoide principal. A grande vantagem do “stellarator” é portanto a de não 
necessitar de uma corrente toroidal da ordem dos MA para o seu funciona- 
mento. Os “stellarators” apresentam um perfil radial de densidade mais 
plano que os dos “tokamaks”, que são geralmente bastante picados. Por 
isso mesmo, os “stellarators” têm dificuldade em se libertarem das “cinzas 
de Hélio”, por ausência da instabilidade de “sawtooth”, que nos tokamaks 
expele os iões do centro do plasma para a periferia. À investigação em 
“stellarators” é uma linha que o PCF conduz com grande interesse, estando 
prevista a construção de um grande “stellarator' na Alemanha, o “Wendels- 
tein-7X”, projecto que se espera venha a ser multinacional e no qual a Asso- 
ciação Portuguesa foi convidada a colaborar. 


3.2. O confinamento inercial 


A fusão por confinamento inercial tem por base o facto de os iões se movi- 
mentarem muito lentamente, em escalas de tempo associadas à injecção de 
energia por meio de impulsos ultracurtos (ns) de lasers de grande potência. 
Esta tecnologia baseia-se no disparar simultâneo de vários lasers, de modo 
a serem focados sobre alvos geralmente esféricos e de reduzidas dimen- 
sões contendo D ou D-T em estado sólido. Estes alvos implodem sob a 
pressão da radiação e, como resultado, os átomos de deutério e de trítio io- 
nizam-se e aumentam a sua densidade e temperatura, originando reacções 
de fusão. A fusão por laser tem sido investigada principalmente pelos Esta- 
dos Unidos, país onde os resultados experimentais foram durante largos 
anos considerados materia classificada, dada a importância geo-estratégica 
dos lasers de grande potência. Tem também sido usados feixes de partícu- 
las de alta energia em substituição dos de laser. 


4. O PROGRAMA COMUNITÁRIO DE FUSÃO 


O Programa Comunitário de Fusão é um programa a longo prazo, que en- 
volve os doze paises da União Europeia, a Suiça e a Suécia. O seu objectivo 
a longo termo é a construção de protótipos de reactores a fusão nuclear, que 
satisfaçam os mais rigorosos critérios relacionados com a segurança e a de- 
fesa do meio ambiente, tendo em vista a produção da enorme quantidade de 
energia necessária ao desenvolvimento da sociedade mundial no próximo mi- 
lénio. Este programa privilegia a investigação em “tokamaks”, embora suporte 
também importante actividade no domínio dos “stellarators”, e mantenha o 
acompanhamento activo do progresso da fusão inercial. 

Para dar continuidade ao trabalho já realizado no JET, o PCF prevê a cons- 
trução de um reactor experimental na configuração “tokamak” designado por 
“Next Step”, o qual, neste momento, se pode identificar com o ITER (“Inter- 
national Thermonuclear Experimental Reactor”) ou ainda com o NET (“Next 
European Torus”) caso as negociações em curso do projecto ITER se vie- 
rem a tornar dificieis ou mesmo impossíveis. 

Os objectivos mais importantes do PCF são: (i) — dar apoio prioritário ao “to- 
kamak” ITER, cuja localização se pretende venha a ser na Europa; (ii) — conti- 
nuar a apoiar o programa de investigação do JET; (iii) — incentivar a investiga- 
ção em máquinas especializadas de menor porte, com o objectivo de se 
explorar o espaço dos parâmetros mais adequado às grandes experiências do 
futuro e de estudar conceitos alternativos de confinamento magnético; (iv) — 
apolar a formação de uma nova geração de físicos, investigadores e técnicos, 
no domínio dos plasmas termonucleares, através de uma ligação cada vez 
maior às Universidades; (v) — preparar a indústria europeia para os desafios 
que a construção dos futuros reactores de fusão irá lançar; (vi) — estudar os 
aspectos ligados à segurança e à protecção do meio ambiente, em cenários 
associados à geração de grandes quantidades de energia por fusão nuclear. 


A investigação comunitária em fusão nuclear envolve verbas anuais da or- 
dem dos 450 MEcus, dos quais cerca de 200 MEcus são provenientes da 
Comissão, 


4.1. O projecto JET 


O JET (“Joint European Torus” (Fig. 2) é o maior e o mais potente “toka- 
mak” do mundo, o que coloca a Europa à frente da investigação mundial da 
fusão por confinamento magnético. Foi concebido, desde o início, como má- 
quina intermédia que iria facilitar a construção do “Next Step”. O seu finan- 
ciamento é feito pela Comissão da União Europeia (80%), pela “United King- 
dom Atomic Energy Authority” (10%) e pelas diversas Associações com a 
Eurátomo (10%), entre as quais se encontra a Associação portuguesa. 
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Fig. 2 — Esquema do “tokamak” JET. | — núcleo de ferro do transformador; 2 — câmara do “toka- 
mak”: 3 — bobine do campo magnético toroidal, 4 — ligação entre dois “oitavos” da câmara de vá- 
cuo; 5 — bobine do campo poloidal externo, 


O programa científico e tecnológico do JET tem as seguintes finalidades 
principais: (i) — estudar as leis de escala do comportamento do plasma, 
quando os seus parâmetros se forem gradualmente aproximando dos reque- 
ridos por um reactor de fusão; (ll) — estudar a interacção entre o plasma e a 
parede do “tokamak”; (ill) — estudar métodos de aquecimento adicional do 
plasma; (iv) — estudar a produção e o confinamento das partículas o gera- 
das pelas reacções de fusão e o problema da sua remoção do plasma cen- 
tral; (v) — abordar os aspectos tecnológicos do manuseamento do trítio e da 
manutenção e reparação da experiência por controle remoto. 

O primeiro plasma do JET foi produzido em 1983. O seu programa experi- 
mental contemplou já a introdução de sistemas de aquecimento adicional 
por RF em 1985 e a injecção de feixes de partículas neutras de alta energia 
(140 keV) em 1988. O JET fez em 1991 a primeira descarga com mistura 
D-T tendo-se atingido uma potência de fusão nuclear de 1.7 MW de pico, 
durante cerca de 2 s, e gerado uma energia de 2 MJ. A escolha de uma 
baixa percentagem de trítio (10%) permitiu uma baixa activação das paredes 
da máquina, que assim se encontra hoje novamente em operação. Esta 


experiência pioneira com mistura de D-T foi depois repetida no TFTR de 
Princeton, em finais de 1993 (50% T), gerando-se uma potência de fusão de 
cerca de 6.4 MW durante 1 s. Os valores máximos dos parâmetros já atingi- 
dos, individualmente, no JET são: T, = 300 milhões de “C, n, =4x10 mé, 
t=1.8s. Se estes três valores fossem obtidos simultaneamente, numa 
mesma descarga, estava satisfeito o critério de Lawson. 


A decisão de alargar a vida util do projecto, até 1996 ou 1999, baseou-se na ne- 
cessidade de se analisarem métodos eficazes de controlar as impurezas do 
plasma e de se facilitar o escoamento de energia e de partículas em cenários de 
interesse para o “Next Step” (instalação de diversores adequados) assim como 
na preparação de uma nova campanha de operação com a mistura de D-T. 


4.2. O projecto ITER 


O ITER é um “tokamak”, actualmente em fase de projecto, a realizar no âm- 
bito de um acordo quadripartido, assinado em 1992, envolvendo a Comuni- 
dade Europeia de Energia Atómica (Eurátomo), os Estados Unidos da Amé- 
rica, o Japão e a Federação Russa. O objectivo fundamental desta máquina 
é demonstrar a possibilidade cientifica e tecnológica de utilização da energia 
de fusão nuclear para fins pacíficos. Nomeadamente pretende-se criar uma 
poderosa fonte de energia, a partir da ignição controlada da mistura D-T, e 
da manutenção da sua queima, por períodos de tempo elevados em regime 
pulsado, tendo sempre em vista o objectivo final da obtenção do regime es- 
tacionário. Este “tokamak” tem já um projecto preliminar detalhado, datado 
de 1993, que se prevê venha a ser aprovado antes de 1998. O ITER terá 
uma corrente de plasma de 24 MA, um raio maior de 8.1 m, e um raio me- 
nor de 3.0 m e um campo magnético toroidal de 5.7 T e dele se espera a 
geração de 1.5 GW de potência de fusão, em impulsos com a duração de 
1000 s. Prevê-se que o seu projecto definitivo se estabeleça em 1996, que 
a sua construção se inicie em 1998, que entre em operação em 2005 e que 
permaneça em funcionamento até 2025. 


4.3. O reactor experimental DEMO 


DEMO é a designação do “Demonstration Fusion Reactor”, máquina que se 
seguirá ao ITER e que será construida com base nos dados científicos 
acumulados durante a operação deste, e que deverá ser já capaz de produ- 
zir quantidades significativas de energia eléctrica a partir da fusão nuclear. 
Prevê-se a sua entrada em operação para cerca de 2025, e a construção 
em série de reactores industriais a fusão nuclear a partir de 2040. 


5. A PARTICIPAÇÃO PORTUGUESA 


Portugal iniciou a sua colaboração no Programa Europeu de Fusão em 
1987, pouco depois de ter aderido à Comunidade, através da participação 
em experiências europeias (JET e ASDEX). Em 1990 foi estabelecida a As- 
sociação EURATOM/IST com os seguintes objectivos: (i) — construir, como 
infraestrutura do Centro de Fusão Nuclear, uma experiência nacional de 
plasmas de fusão; (ii) — fomentar a colaboração internacional, nomeada- 
mente na investigação em máquinas europeias de médio e grande porte; (iii) 
— dar formação científica e tecnológica, na área da fusão, a jovens investi- 
gadores e técnicos portugueses. 


5.1. O “tokamak' ISTTOK 


O “tokamak” ISTTOK, construido a partir da estrutura básica do ex-"tokamak” 
TORTUR de Nieuwegein (Holanda), foi montado em Portugal de 1990 a 1992. 
Trata-se de uma pequena máquina, com raio maior de 0.46 m, raio menor de 
0.085 m e um campo magnético máximo de 3 T. Para além dos diagnósticos 
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básicos (sondas magnéticas, dois laços de Rogowskii, bobines seno-coseno 
para a determinação da posição da coluna de plasma, etc) o ISTTOK dispõe 
de alguns diagnósticos de concepção avançada como os de difusão de Thom- 
son, de microondas (interferómetro de 100 GHz e reflectómetro de 16-25 
GHz) e de análise da deflexão de um feixe iónico (Cs*, 20 keV, 1 A). 


Com este conjunto de diagnósticos, e dotado de um sistema original de con- 
trole e de aquisição de dados, este pequeno “tokamak” está apto a realizar 
investigação com interesse para o PCF nos seguintes domínios: (i)- caracte- 
rização dos plasmas moderadamente quentes e densos em baixo campo 
magnético; (ii) — estudo da influência da polarização dos limitadores do 
plasma no seu confinamento; (iii) — análise do comportamento da coluna de 
plasma pela determinação da evolução espacio-temporal da sua densidade 
e temperatura; (iv) — estudo da propagação de estruturas não lineares em 
plasma de fusão, com especial ênfase na dos vórtices produzidos pela apli- 
cação de impulsos de tensão muito curtos (1 us) e de grande amplitude 
(2 kV) aos limitadores; (v) — estudo do comportamento do plasma quente 
em descargas alternadas, em especial nos instantes de tempo em que o 
campo poloidal se anula por inversão da corrente. (vi) — geração de corren- 
tes superficiais no plasma e estudo da sua influência no confinamento; (vil) 
— estudo da geração não indutiva de corrente em “tokamaks” com vista ao 
estabelecimento de um regime estacionário de operação; (vili) — estudo do 
transporte de partículas e de energia nomeadamente através de métodos de 
fluorescência laser induzida; (ix) — desenvolvimento de novos diagnósticos, 
usando o seu plasma como amostra representativa do plasma das regiões 
periféricas das grandes máquinas mundiais. 


5.2. À Colaboração com o “Max-Planck Institut fúr Plasmaphysik” 


A colaboração com o “Max-Planck Institut fúr Plasmaphysik” de Garching 
iniciou-se em 1987, tendo sido realizado trabalho cientifico e tecnológico no 
domínio dos diagnósticos de reflectometria de microondas para “tokamaks”. 


Os resultados mais importantes obtidos com os três reflectómetros instala- 
dos no “tokamak” ASDEX, na banda de 16 a 60 GHz, para o estudo das 
propriedades de transporte em “tokamaks”, foram: (i) — a determinação, pela 
primeira vez no mundo, do perfil de densidade de um “tokamak” com ele- 
vada resolução espacial e temporal, desde o centro até à periferia do 
plasma; (ll) — o estudo das fluctuações da densidade do plasma e em parti- 
cular dos ELMS (“edge localized modes”) e das “ilhas magnéticas”; (ill) — a 
obtenção de medidas de correlação nas direcções toroidal e poloidal medi- 
ante a colocação de antenas em diferentes posições do plasma, e ainda de 
correlação radial, utilizando a mesma antena e duas frequências distintas 
obtidas com geradores independentes. 


Na sequência do trabalho realizado, o Centro de Fusão Nuclear concebeu e 
construiu um sistema de reflectometria para o tokamak ASDEX-U, estando ac- 
tualmente já a operar diversos canais, na banda de 16 a 110 GHz, que utili- 
zam técnicas de varrimento ultra-rápidas (10 us), de modo a permitir obter re- 
sultados precisos em regimes com elevado nível de fluctuações. Dispõe ainda 
este diagnóstico de um sistema dedicado de aquisição de dados, especial- 
mente desenvolvido para tratar a grande quantidade de informação gerada. 

O CFN apresentou ainda, em colaboração com a Associação EURATOM/CI- 
EMAT (Madrid) uma proposta de um sistema de reflectometria de microon- 
das para o “stellarator” W7-X, actualmente em fase de análise pelo “Pro- 
gramme Committee” do PCF. 


5.3. A participação no JET e no ITER 


A participação portuguesa no projecto JET tem sido feita através: (i) — da 
adesão da JNICT ao “JET Joint Undertaking” em 1987; (li) — de três “task 
agreements” nas áreas do traçado de raios em plasmas na presença de on- 


das híbridas inferiores, do estudo da actividade magneto-hidrodinâmica e 
dos sistemas de reflectometria de microondas. (iii) — de um contrato para o 
desenvolvimento de equipamento electrónico de alta frequência para os re- 
flectómetros a instalar futuramente no JET; (iv) — da afectação ao projecto 
JET de físicos portugueses e (v) — da realização de vários estágios por alu- 
nos finalistas universitários. 

No que diz respeito ao projecto ITER, o CFN tem participado nas fases de 
concepção e de projecto de alguns diagnósticos deste futuro “tokamak”, com 
ênfase especial nos sistemas de reflectometria de microondas, área que é 
coordenada por uma investigadora portuguesa. 


5.4. A colaboração com as outras Associações 


Investigadores do CFN têm cooperado nos programas de investigação de di- 
versas Associações europeias, nomedadamente em: Cadarache (CEA- 
DRFP), no estudo da geração de corrente por ondas hibridas inferiores; Mi- 
lão, no estudo da geração de corrente por ondas electrociclotrónicas,; 
Culham (AEA), através da colaboração no projecto do um pequeno “toka- 
mak” compacto “MAST"; Lausanne (EPFL), na construção de um diagnóstico 
de espectroscopia de raios-X para o “tokamak” TCV; Madrid (CIEMAT), atra- 
vês da colaboração tripartida, envolvendo a Rússia, no desenvolvimento de 
diagnósticos por deflexão de feixes iónicos de média energia (20-200 keV). 


6. CONCLUSÕES 


Após cerca de quatro anos de actividade, pode dizer-se que a Associação 
EURATOM/ST, integrada no Centro de Fusão Nuclear, teve um rápido cres- 
cimento e que atingiu nalguns domínios, como por exemplo no da reflecto- 
metria de microondas e no da instrumentação digital, reconhecida compe- 
tência, o que justifica plenamente a sua integração no Programa 
Comunitário de Fusão. 

O conteúdo deste artigo deixa claro que, num domínio tão vasto como o da 
fusão nuclear, que envolve áreas tecnológicas tão variadas como as da 
energia eléctrica, electrônica, microondas de potência e antenas, óptica apli- 
cada e em particular espectroscopia, controle e aquisição de dados, robó- 
tica, ciência dos materiais, supercondutividade, manuseamento do trítio e ra- 
dioactividade, etc, os pequenos países podem ter um papel importante a 
desempenhar. De facto, através da especialização de pequenas equipas de 
cientistas e técnicos em domínios específicos, onde se podem satisfazer cri- 
térios de excelência e atingir reputação internacional, tal como Portugal já 
demonstrou, esses países podem vir a cooperar efectivamente, não só no 
Programa Comunitário de Fusão, mas tambem e a mais longo prazo, em 
projectos de âmbito mundial, como por exemplo os do ITER e do DEMO. 
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ABSTRACT 


The fundamental aim of this 
article is to show that, by con- 
sidering an ideal gas defined 
through p=au, this relation 
between force and energy con- 
tains the whole thermodynamic 
information about the system. 
As a matter of fact we show 
that there is no need for an a 
priori introduction of the varia- 
bles temperature or entropy 
since they result from the 
above relation and from the 
Energy Conservation Principle. 
Previous tautological treat- 
ments are thus eliminated and 
equations p=qu and pV = BT 
are related with generality. The 
theory is general since the 
ideal gas considered has the 
photon gas, which, of course, 
is ever present. 
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Rodrigo de Abreu 


Centro de Electrodinâmica, Instituto Superior Técnico 


1. INTRODUCTION 


The relation between p= cu, and 
the other pressumed thermodyna- 
mic quantities have already been 
treated in the literature (Uhlenbeck 
1932, London 1938, Einbinder 1948, 
Einbinder 1949, Miller 1960, Lands- 
berg 1961, Landsberg 1974). 


We shall, however, demonstrate 
that when p=cu, it is possible to 
associate temperature with energy 
through the relation U=AT where A 
is constant along the isentropic 
transformation. 


An ideal gas therefore satisfies 
pV=BT and if Bis approximately 
constant along an isothermal line, 
then the gas behaves like a classi- 
cal ideal gas. 


The preceeding statements can be 
demonstrated through a generaliza- 
tion of Carnot's theorem (Abreu 
1983) which permits an easy inter- 
pretation of the relations arising 
from Energy and Entropy. This ge- 
neralization makes it possible to 
treat in the same way a photon gas 
or another Bose-Einstein or Fermi- 
Dirac gas, the reasoning that led 
Boltzmann to the deduction of Ste- 
phan's law having been used in a 
similar way. With this synthesis we 
can achieve a great simplicity and 
previous tautologies are eliminated. 
In VIII, and in a more abstract way, 
the formalism which condenses the 
relations previously established is 
directly obtained from U=U(S,V). 


Minho, Braga, Portugal (1993) 


2. ENTROPY and p=cu 


The relation p= au shows that if 
pressure increases, the energy den- 
sity increases as well. 

This being the case, if the gas 
(Abreu 1987) follows a trajectory in 
the domain of variables p and V co- 
ming back to its initial volume, its 
pressure will be necessarily higher 
than or equal to the initial one 
(Abreu 1985, Pau Chang-Lu 1982, 
Abreu Faro and Abreu 1987, Abreu 
Faro and Abreu 1990). The pres- 
sure will be the same if the external 
force is always equal to the internal 
force. In this way the gas energy 
cannot be only a function of the vo- 
lume, as can be seen in relation |) = 
pV/a: We can therefore introduce 
the entropy S variable satisfying the 
following conditions: 


IR U = U(S,V) 
2. U(S,V;))2U(S,V,) 
if Vo=V, 


It is then possible to choose S, > 5, 
for the situation considered in the 
inequality of condition 2. S, is equal 
to S,, obviously when U (S,,V,) > 
U(S,,V,) f Vo=V,. The reversible 
transformation is the isentropic 
transformation. 


It is thus shown that equation p= cu 
(and the condition of tendency of 
equilibrium which is implicity asso- 
ciated with it since the piston for a 
given equilibrium pressure of the 
gas has a pressure on it higger for 
a compression and lower for an ex- 
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pansion) (Abreu Faro and Abreu 
1987) contains the condition of irre- 
versibility of the 2nd Principle of 
Thermodynamics, a strictly axioma- 
tic formulation being therefore avoi- 
ded in establishing the relations bet- 
ween energy and entropy. 


3. GENERALIZATION OF CAR- 
NOT THEOREM 


A gas constituted by interactionless 
particles exerts a pressure p= cu 
where a is constant and u is the 
energy density (Einbinder 1948), 

Let us consider two reservoirs R, 
and R, containing the same ideal 
gas at pressures p, and p.. The two 
reservoirs R, and R, have, on equili- 
brium points, constant physical pro- 
perties per unit volume — they are 
sufficiently large. Also satisfy the fol- 
lowing conditions: they may be con- 
nected by an isentropic transforma- 
tion after N, particles of R, have 
been absorbed into the inner part of 
a cylinder provided with a piston, 
and whose volume passes from O to 
Vo. Once pressure p, has been at- 
tained, the volume of the cylinder 
goes back to zero upon injection of 
N, partícles into reservoir R; (Fig. 1) 


- 
Ç 
ha 


The efficiency of the reversible 
cycle which uses the ideal gas, the 
above-mentioned cycle, is, n = 1- r 

E 
where T is the Kelvin Temperature, 
as we shall demonstrate, which ge- 
neralizes the result already known 
for the Carnot Cycle and which can 
also be obtained from the latter, 
(from this analysis we can see why 
Carnot analysis is independent of 
the caloric conservation hypothesis 


because here we have, indeed, a 
substance flowing between the re- 
servoirs (Abreu 1983)). 

Let U stand for the energy of the 
gas contained in the vessel provi- 
ded with a piston and U, denote the 
energy of the gas in the reservoir. 
The Energy Conservation Principle 
permits us to write that the elemen- 
tary work is 


dW = dU + dU, (1) 


Let us assume that the volume pas- 
ses from O to V, (i=1,2) reversibly in 
contact with p. 


Since 
pMV, = aU, 
we have 
DV, — “OU, == U, + AU (2) 


We therefore have 
AU, =+(0:+ 1)U, (3) 


Let us define the efficiency mn: 


= IW | = AU, |- AU, | 


“u,l  4U,| 
or 
U, | 
n=10 5) 


Let us consider that both in R, and 
R. we have a mixture of two gases. 
We shall assume that one of them 
constituted by photons, which can 
pass alone from the reservoir, 
(H. Davy calls phoxygen to the mix- 
ture of oxygen and light) (Abreu 
1993(a)). 

In what concerns the particles of the 
other gas we consider that such a 
transit alone is forbiden. 


Therefore for the photons we have 


U, 
n=1-0, (6) 


As to the properties of the mixture 
(which will henceforth be distinguis- 
hed by a horizontal line) we have 


P=p+p,=cu+cu=óU (7) 


if we assume that the mixed gas is 
an ideal one; if not (7) Is valid for an 
infinitesimal cycle (see IV and Ap- 
pendix). 


Since p=GU, 
PATR a a JR O O (8) 
(o.+ 1)U, U, U, 21 | 
. a |AU,, | 
= | ] E 1 - 
sINCce U, U, + U, and n (us | 
las 
AVG 


with IAU,, |=(0.+ 1)U,+ (0,+ JU, (i=1,2) 


4. THE ISENTROPIC TRANSFOR- 
MATION EQUATION FROM 
THE GENERALIZATION OF 
CARNOT THEOREM 


Let us consider a cycle defined as 
previously but assuming that pres- 
sures p, and p, differ by an infinite- 
simal quantity dp. 

The absolute value of the work is 


dW |= Idp V | 


where V is the volume at which the 
reversible expansion, without con- 
tact with the reservoir, is initiated 
(Fig. 2). 


U+sdU(p+dp) 


we have 


o dW | — dpV dU 


pe (9) 
AU, | AU, U 


It is easy to show from (3) and (9) 
show that 


UV = constant (10) 


Identity (10) is the isentropic trans- 
formation equation. 


5. INTRODUCTION OF THE 
CONCEPT OF TEMPERA- 
TURE FROM THE GENERALI- 
ZATION OF CARNOT THEO- 
REM. THE CLASSICAL GAS 
EQUATION. 


As previously seen, the efficiency of 
the cycles defined between R, and 
R. is 


where U, U,, U', and U', are two 
pairs of values of the gas energy 
contained in the cylinder when in 
connection with R, and R, and 
which define two isentropic transfor- 
mation. 


Since U, U; we can write 


U=AT, (11) 


where À is constant throughout the 
isentropic transformations. 


The efficiency can therefore be gi- 
ven by (9) or by 


sa (12) 
Since p= cu and U = AT, we have 


pV=0AT=BT (13) 


Let us assume that both R, and R, 
are separated by a wall, transparent 
only to photons, the identity (Pear- 
son 1984) of the energy density 
being therefore associated with the 
radiation of both sides of the divi- 
ding wall. We have in both parts of 
R, (or R,) a gas mixture of photons 
and another ideal gas. We admite 
the transparency of the dividing wall 
only to photons. Therefore we can 
have different pressures P, and P, 
for the gas in the different sides of 
the reservoirs. 
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We have from (8) 
(14) 


where U and U are energies of N, 
particles of a gas at pressures p 
and p corresponding to the conditi- 
ons of both sides of the dividing wall 
and such that it is possible to pass, 
by causing the volume to vary, from 
one condition to the other; that is, if 
N, particles from KR, part are absor- 
bed at pressure p, and energy U,, it 
is possible, by varying the volume, 
to attain conditions N,, p,, U, corres- 
ponding to the other side of the divi- 
ding wall as long as contact with R, 
is maintained and therefore in the 
presence of R, radiation. An isother- 
mal transformation of the N, parti- 
cles has thus been defined. 


From (28) and (30) we get 


Ui, UU ch Ma 
Us Um ÚU, T, 


We have then demonstrated that 
the efficiency of all the reversible 
machines functioning between R, 


and R. is m=1 Bi where U,, 

a 
and U,, are the values of the photon 
gas energy on the extreme points of 
an isentropic transformation that 
connects the reservoirs. 


We can then introduce the quantity 
temperature so that 


=71-— 
n T 


THE CLASSICAL 
EQUATION 


IDEAL GAS 


As we have seen, we have 
U=A T, 


and 
pV =cAT, =BT, (16) 


An isentropic equation is, as we 
have seen, 


UvVC=cte. 
Since 


U=aAT, 


we have: 


TV'-=cte. (17) 


Consequently A is a function of 
TV' 


A=A(TV') (18) 


Since TV” varies along an isother- 
mal line, so does the À value varies 
along an isothermal line. Experi- 
mentally it is however found that 
there exist temperature and pres- 
sure ranges where A is practically 
constant and has the same value 
several gases thus satisty pV = BT 
with constant B. (see Appendix). 


6. THE PHOTONS ENERGY DEN- 
SITY AS A FUNCTION OF 
TEMPERATURE. 


1 
For the photons q, = 3º 


Taking (10) into account, we have 
(Einbinder 1949) 


UV=const.=À 
or 
D;* E 

Ur 


and from (11) 
U=AVAST' 


Since u,=const. we have T=const. 
for R, or R, photons, therefore 
U=0T* (19) 
where 


o=A'A*=const. 


for all equilibrium points and o is a 
universal constant. 


7. THE DEFINITION OF THE 
IDEAL GAS 


The designation of classical ideal 
gas (Landsberg 1961) is used for a 
gas satisfying 


pV=BT 


ana 


C, 
Y=— =tonst. 
V 


But when U=AT with A being cons- 
tant, with the definitions of C, and 
Cy, (see Appendix) we have 
y=const. and pV = BT with constant 
B. 


Therefore, when gases satisfy 
p=cu (Einbinder 1948), a classical 
ideal gas is defined by pV = BT with 
B constant. In this way, B class defi- 
ned in Landsberg's (Landsberg 
1961) article, coincides with A class 
defined in the same article for all 
gases satisfying p= ou. 

An ideal gas is defined by pV=ou. 
It also satisfies pV = BT. When B 
has a small variation, the gas fulfils 
the conditions to be considered a 
Classical ideal gas. 

We may have, in short, the following 
scheme: 


A. Ideal gas pV=qu=pV=BT 
where B=B(TV') 


B. If B=cte. - classical ideal gas. 


8. TEMPERATURE DEFINITION 
THROUGH THE THERMODYNA- 
MICS RELATION and pV = ou. 


We are now going to present the 
formalism that synthesis the prece- 
ding analysis. 

As we seen in 2., U = U(V,S). 

For an infinitesimal transformation 
we have 


U 
V 


odU 


d | 
aU =[5 V+[55] SS (20) 


If dS = 0, we have 


But if (Abreu 1991) dS = 0, 
dU = -p dV 


since dU = dW and dW = -pdVin a 
reversible transformation (Abreu 
1990, Abreu 1991). 

Therefore 

dU 


Es = (21) 


Let us make (Abreu 1985) 


du 
dS 


= (21) 


V 


We have then 
dU = -pdV + TdsS, (23) 


in a quasi-static transformation 
which is not necessarily a reversible 
(Abreu 1990, Abreu 1991, Allis 
1952, Curzon and Leff 1979) 


Since p= cu 


a TR e 
Consequently 

dU dv | 
TT (25) 


along the line S = const. 
From (25) there results 


UV*= const. (26) 
along S = const. 


Now from U = U(S,V) and ma- 


king Lihés 
OS | y 
E en 
dSty VI s 
is obtained. 
Since p = qu 
dp = du 4 
SS y SI V 
But since: 
E a Ai 
dS |, dVIs 
dT 1 
Elm! ET oem 28 
57, CY ii 
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Along S = const. we therefore verify 
TV" =const. (29) 


Since UV" = const. is also verified 
along S = const. then 


U=AT (30) 


CONCLUSIONS 


It has been the aim of this article to 
show that from equation pV = aU for 
an ideal gas, it is possible to esta- 
blish the concept of temperature. 
For this purpose we have used two 
sufficiently large reservoirs where, 
on equilibrium points, the physical 
properties per unit volume are cons- 
tant. Alternatively and in an equiva- 
lent way, such a concept can be es- 
tablished through p = qu and the 
du 


relation T-| a (Abreu 1985). To 
JS!v 


Ni 
this end, it is demonstrated that the 
efficiency of a cycle described by a 


gas satisfying p=au is m = 1 - E = cte. 


e 
where U, and U, are the gas ener- 
gies on the extreme of isentropic 
transformations that connect both 
reservoirs or, In a more abstract 
way, through the formalism emer- 
ging from U = U(5,V) since the en- 
tropy arises as a consequence of 
the irreversibility inerent in p= ou 
(Abreu 1985), and of the equilibrium 
implicity assumed (Abreu Faro 
1987). Since light satisfies p= cu 
the efficiency of all cycles is 


It is demonstrated that equation pV 
= BT is satisfied for all ideal gases. 
The classical ideal gas is defined 
only through the condition B = 
const. and not through both condi- 
tions pV = BT where B is constant 
and o = const. (Landsberg 
V 

1961, Landsberg 1974). 

A great simplicity is, in this way, 
achieved and tautologies (Miller 
1960, Landsberg 1961, Pearson 


1984, Fermi 1936, Buchdahl 1973, 
Home 1977, Ehrlich 1981, Thomsen 
1983) are avoided, a generalization 
of Carnot theorem having been re- 
sorted to, which, together with the 
Energy Conservation Principle, cle- 
arly shows the non-essential cha- 
racter of the First Principle of Ther- 
modynamics (Abreu 1990, Abreu 
1991, Abreu 1993(b), Abreu 1994). 
This being so one can understood 
and reinterpret the historical way of 
introducing the physical ideas of 
thermodynamics with a new pers- 
pective emerging from the generali- 
zation of Lord Kelvin postulate: 
A transformation whose only final 
result is to transform internal energy 
into Work is impossible (Abreu 
1991). 
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APPENDIX 


Definition and computation of 
From H=U+pV 
we have 


H=UraU=(0+1)U 


Since p = ou. 

Therefore 
dH a tou 
De load) 1] 
amp (t+ for); 

Or 


[or|= (0:+1) CG, . Only for an classical 


dH| joH| 
ideal gas we have ps =| at), Or 
Since 
du 
Cy = 
' E V 
Defining 
Ei 
“AoThy 
NR 
dT| y 
we have 
y=(0+1) 


Then, an isentropic equation is 


pV'=cte. 


Consider a mixture of an classical ideal 
gas + photons. 


The 7 mixture can be calculated 
from 


= U+U-+NKT + 4 aTV 


H=NKT 2 + Lar 
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and from the internal energy in 
EE - NKT + aT!V 


Therefore 7 for the mixture is 


E 4 
NK2 4 4 a4TN 
2" 9 


3 


> O) 
2 +, 4aT'M 
É 


= 
NK - 


The mixtures value of y varies from 1.33 
(photon 7) to 1.66 (classical monoatonic +). 


Since TV”! - constant we can define 

the isentropic equation by an interactive 
method. This being so, with generality, 

when a classical ideal gas is compres- 

sed reversibly Y change, satisfying 2| 
Tvi"” "constant and (A). The mixture, of 
course satisfies the equation 


pV=(1-1)U 


pa 


pV=(9-1 [EnkT + aTVIT 


pV=BT 
With 
o 3 , 
B=(y-1)[5 NKT + aTv 


Therefore for a gas without interactions, 
B value change because the gas is not 
a classical or (and) because the photon 
gas can not be neglected. 
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ABSTRACT 


The solvating power of pol- 
yethylene oxide (PEO) with al- 
kali salts was discovered in 
1978 and attracted immediate 
attention in view of its potential 
applications in solid state elec- 
trochemistry. Over the last ye- 
ars, the combined efforts of 
polymer scientists, electroche- 
mists and physicists have led 
to a better understanding of 
the conductivity mechanism 
and to improved synthesis 
techniques. 

Some of the most commonly 
used polymer electrolytes are 
reviewed here, including linear 
and crosslinked polymers as 
well as ionic and protonic con- 
ductors involving PEO, pol- 
yethylene imine (PEI), polyvinyl 
pyrrolidone (PVP) and ormoly- 
tes (a new organic-inorganic 
polymer) as the solvating ma- 
trix. The main applications fo- 
reseen are as electrolytes for 
solid state batteries, electroch- 
romic systems and gas sen- 
sors, 
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1. INTRODUCTION 


Over the last decade, the new field 
of ionically and electronically con- 
ductive polymers has become an 
important part of solid state electro- 
chemistry. These new electrolytes 
combine the advantages of polymer 
materials (e.g. plasticity, easy pro- 
cessing and light weight) with con- 
ductivity performance approaching 
that of liquids. 

Polymer electrolytes lie in between 
the solid and liquid state. The ma- 
cromolecule acts as solvent for a 
salt or a strong mineral acid, which 
becomes partially dissociated. The 
polymer backbone appears to be 
immobile, but on the atomic scale, 
small organic chain movements oc- 
curring on a very short time scale 
(approximately 10º-10'ºs) are res- 
ponsible for ionic conductivity. 

The existence of complexes of pol- 
yethylene oxide (PEO) and alkali 
metal salts was first demonstrated 
by Fenton and co-workers [1,2], and 
the considerable potential of these 
materials as polymer electrolytes 
was later put forward by Armand 
and co-workers [3,4]. 

More recently, Lasségues et al. [5] 
have investigated the superprotonic 
conductivities of compounds with 
the general formula XHSO,, where 
X can be a salt or a polymer such 
as polyethylene imine (PEI) or pol- 
yacrylamide (PAAM). Amorphous 
protonic polymer electrolytes were 
obtained with conductivities of the 
order of 10? S cm” at room tempe- 
rature and remaining around 10º S 
em” until -65ºC. The segmental mo- 


tion of the organic chain is probably 
supplied by a cooperative motion of 
the hydrogenosulphate anion and 
the amide function to ensure fast 
protonic conductivity. Around the 
same time, Charbouillot et al. 
synthesized aminosil [6], an organic- 
inorganic polymer midway between 
a glass and a polymer electrolyte. 
Aminosil led to further development 
with ormolytes, the electrolytic ver- 
sion of ormocers, developed by 
Schmidt [7] and combining the elec- 
trolytic properties of organic poly- 
mers with the mechanical and che- 
mical strength of the glassy 
inorganic backbone. 


2. ELECTROCHEMICAL  PRO- 
PERTIES 


2.1. Redox stability domain 


Before proposing these materials as 
solid electrolytes in batteries, it is 
necessary to determine their redox 
stability. The electrolyte must be 
inert with respect to both electrode 
materials, corresponding to very dif- 
ferent chemical activities, as for 
example in the system Li/(PEO)LI- 
CLO,'TiS, where lithium is the ne- 
gative and TiS, the positive elec- 
trode. This redox stability domain is 
determined with the classical three- 
electrode cyclic voltammetry me- 
thod proposed by Sequeira and co- 
workers [8-10]. Typical cyclic 
voltammograms [8-10] show the re- 
dox stability range of (PEO) Lil in 
Fig.l, (PEO)LICFSO, in Fig.2, 
(PEO)KI.2ZnCl, in Fig.3 and (ami- 
nosil) O.IHCF;SO, in Fig.4. 
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Fig. 1 Cyclic voltammogram for PEÔ (Lil) at 
BO“C with a scanning rate of 100mV S' [8] 
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Fig. 2 Anodic and cathodic polarization 
curves for (PEO)LIF;CSO, at platinum 
electrodes [9] 
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Fig. 3 Anodic and cathodic polarization 
curves for (PEQ), Ki.22nCl, at platinum 
electrodes [10] 


2.1.1. Cathodic domain 


Using thermodynamically stable ani- 
ons (|, Br), the stability of the poly- 
mer with respect to reduction was 
investigated. Figure 1 shows the 
voltammogram for (PEO) Lil. No 
peak is visible before the Li' Li" re- 
duction at -2.2V. The absence of 
any parasitic reaction is corrobora- 
ted by the excellent (greater than 
80%) recovery of the plated metal. 
Similar results have been obtained 
with Nal and LiBr. The polyether 
stability expected from the strong C- 
O bonds (86 Kcal mol!) is thus at 
least similar to that of micromolecu- 
lar ether solvents (DME, THF, etc.). 


Some other anions, however, un- 
dergo a reductive cleavage which is 
visible before the metal deposition. 
Thiocyanate is reduced according to 
SCN + 2e=5Sº+CNrat - 1.8V. 


2.1.2. Anodic domain 


The cyclic voltammogram in Fig. 1 
shows clearly the anodic limit due to 
| oxidation at +0.6 V. The voltage 
stability window of Lil in PEO is thus 
2.8 V, in close agreement with the 
thermodynamic value (2.81 V). The 
activity of the dissolved salt in the 
polymer is thus close to unity. 

In Fig. 2, the voltammogram for the 
(PEO)-LICF,SO, complex is shown. 
In the cathodic domain, the plating- 
stripping of lithium metal could 
again be observed. Since the triflu- 
oro methane sulphonate anion is 
much more effective in resisting oxi- 
dation, an anodic wall is only visible 
at - +2.9V. At this potential an irre- 
versible reaction occurs, probably 
that of CF;SO,- with the polymer. 


With such a stable (metastable) 
anion, a redox stability domain of 
3.5V vs. M/M* is obtained. This sta- 
bility window is sufficient for the 
possible use of these electrolytes in 
solid batteries using intercalation 
compounds [3]. 

A voltammogram of aminosil is pre- 
sented in Fig. 4. The cathodic wall 
(A) corresponds to the formation of 
hydrogen: the reaction H* (amino- 
silj+e (Pt) —1/2H, seems to be re- 
versible, suggesting that protonic 
conduction is not negligible. The 
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Fig. 4 Cyclic voltammogram for aminosil 
performed with a platinum electrode [8]. 


anodic peak (C) occurring at +1.3 V 
is similar to a passivation reaction. It 
is irreversible, specific and destruc- 
tive with respect to the polymer, pro- 
bably leading to the degradation of 
the alkylamine chain. The stability 
domain of the material is then 1.4 V. 


2.2. Transference number 


Usually, solid electrolytes (glasses, 
crystallized ionic conductors) exhibit 
unipolar conduction. In solvating 
polymer electrolytes, both ions 
move. Anion transference, determi- 
ned by different techniques, is in the 
range 0.2-0.8. The most frequently 
used techniques are Tuband's me- 
thod [11], and NMR [12] and AC im- 
pedance [13,14]. 

In the case of batteries using liquid 
electrolytes, mixed ion transport 
(anion and cation) is a major cause 
of electrode degradation. The situa- 
tion is different with polymer elec- 
trolytes, since the high viscosity of 
the backbone avoids ionic convec- 
tion motion. 

Furthermore, in a polymer elec- 
trolyte, the flow density is limited by 
anionic transference because of the 
anion backscattering induced by the 
chemical potential gradient. Conse- 
quently the flow intensity is limited 
to a low value: 0.1 mA em? [11]. 


3. CONCLUSIONS 


Organic polymer electrolytes generally 
have good conductivity in the amor- 
phous state over a wide redox stabi- 
lity area. Unfortunately, most linear 
polymers with high molecular weight 
are crystalline at room temperature. 
This major drawback can be avoided 
by using other polymeric materials, 
namely comb-branched polymers with 
short chain lengths or by turning to- 
wards the new organic-inorganic poly- 
mers: ormolytes and new polymer 
electrolytes with grafted anions. 
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O Prof. David Gibson, da University of Texas at Austin (UTA), deslo- 
cou-se ao Instituto Superior Técnico de 12 a 16 de Dezembro de 1994 
para realizar um curso sobre o tema genérico “Transferência de Tecno- 
logia”. Esta inciativa corresponde ao primeiro passo de um processo de 
coperação entre o IST e a UTA. A UTA detem uma vasta experiência 
no processo de transferência de tecnologia da universidade para a socie- 
dade, tendo dinamizado um instituto especialmente vocacionado para O 


efeito, o IC-Innovation, Capital and Creativity. 


A colaboração entre as duas entidades universitárias será materializada 


através do envolvimento do TTEC, especialmente no que diz respeito à k 
. ps o ; O Presidente do [0*, George Kogzmetsky (pri- 
incubação de empresas de base tecnológica, e do Gabinete de Estudos e meiro a contar da esquerda) é o Dr. David Gib- 
Planeamento do IST (GEP). No âmbito do GEP está previsto o estudo 


da evolução da UTA, integrando-se num Estudo Comparativo do IST 


som (terceiro a contar da esquerda). 


com Universidades Estrangeiras com performances excelentes. 


Por último, está planeado o intercâmbio de docentes e de alunos de pós- 


graduação, tendo em vista aproximar as comunidades das duas universi- 


dades e rentabilizar as complementaridades existentes entre o IST e a 
UTA 


O [IC2-Innovation, Capital and Creativity: 
networking entrepreneurship for globally 
shared prosperity. 


O IC2 da University of Texas at Austin é um 
centro internacional de investigação nas áreas 
da inovação tecnológica, criatividade e capital. Os objectivos do 
Centro são quatro, a saber: 


* estudar e analisar o sistema empresarial e, em especial, o impacto 
da tecnologia no seu desenvolvimento; 


* elaborar aboradagens criativas ao estudo de questões fulcrais do 
desenvolvimento empresarial, económico e tecnológico; 


* disseminar resultados de investigação através de monografias, pa- 
pers, conferências e livros; 
* construir uma rede global ligando universidades de todo o mundo e 
promovendo a realização de projectos de investigação em comum. 


RESUMO 


Este artigo resulta de uma 
pesquisa bibliográfica sobre as 
possíveis aplicações de redes 
neuronais artificiais a proble- 
mas típicos da engenharia do 
controlo e robótica. Ao contra- 
rio dos métodos “clássicos” 
para a resolução deste tipo de 
problemas, as técnicas conexi- 
onistas recentemente desen- 
volvidas carecem de um for- 
malismo uniforme e genérico 
no tratamento de situações 
conceptualmente idênticas. Os 
bons resultados que se tem 
vindo a obter com a utilização 
de redes neuronais em sis- 
tema de controlo, aliados à re- 
ferida carência, justificam o 
contributo que este trabalho 
tenta dar para um melhor co- 
nhecimento e organização das 
muitas soluções recentemente 
publicadas. 


Assume-se que o leitor está 
familiarizado com os algorit- 
mos mais conhecidos para 
aprendizagem em modelos co- 
nexionistas e focam-se apenas 
os aspectos estritamente rela- 
cionados com a sua adaptação 
a problemas do controlo de 
sistemas. 
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1. INTRODUÇÃO 


Do ponto de vista da teoria dos siste- 
mas, um sinal é um elemento de um 
espaço de funções suficientemente 
rico para que possa dar conta da na- 
tureza e comportamento dos fenóme- 
nos físicos em estudo e um sistema 
é um operador desse espaço para si 
próprio como ilustra a figura 1. 


Fig. 1 Representação de um sistema físico 
e sinais relacionados. 


Os problemas de controlo consis- 
tem, regra geral, em determinar o si- 
nal u a aplicar à entrada do sistema 
a controlar S de modo a que a sua 
saida y tenha um comportamento 
especificado à priori. A mais simples 
solução que se pode imaginar para 
este problema consiste em tomar u 
como saída de um outro sistema C, 
o controlador, que recebe como en- 
trada r, a trajectória desejada para S 
(figura 2). Neste tipo de controlo, em 
cadeia aberta, o sistema C deve ser 
então o operador inverso de S. 


Fig. 2 Sistema de controlo em cadeia 
aberta. 


A análise e síntese de sistemas são 
assim pedras fundamentais no es- 


tudo da teoria do controlo. O as- 
pecto mais bem desenvolvido desta 
teoria trata apenas sistemas inva- 
riantes no tempo descritos por ope- 
radores lineares e basela-se em 
técnicas consagradas como a álge- 
bra linear, a teoria da variável com- 
plexa e das equações diferenciais li- 
neares ordinárias. À exigência do 
conhecimento exacto do operador 
que descreve o sistema a controlar 
e a restrição de que este deve ser 
linear e invariante no tempo, mos- 
tram a insuficiência deste aspecto 
da teoria do controlo quando se lida 
com situações reais. 

Na maioria das situações os siste- 
mas em causa não são lineares, 
têm um comportamento variante no 
tempo e, além disso, o projecto do 
controlador tem de ser feito tendo 
em conta incertezas de vários tipos 
na modelização dos mesmos. No 
controlo, a invenção da retroacção 
é uma primeira resposta a estes 
problemas. Neste tipo de sistema 
de controlo, o controlador tem aces- 
sível não só a trajectória desejada 
mas também a que o sistema está 
realmente a percorrer, podendo en- 
tão gerar u baseado na diferença 
entre estes dois sinais (figura 3). 


Fig. 3 Sistema de controlo com retroacção. 


Os primeiros estudos sobre estes 
sistemas realimentados remontam 
ao século xix e foram feitos por 


* Desde Janeiro de 1994, investigador no Instituto de Sistemas e Robótica. 
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Maxwell (a quem se deve o célebre 
modelo matemático da radiação 
electromagnética). No século xx, 
por volta dos anos 40, Wiener de- 
dica-se também a uma série de tra- 
balhos sobre estes sistemas e a 
sua estabilidade. 


O controlador C€ é um sistema linear 
de parâmetros constantes e o seu 
projecto é feito supondo S também 
linear, ou pelo menos linearizável 
na zona de funcionamento de inte- 
resse, e invariante no tempo. Caso 
o sistema S tenha não linearidades 
sensíveis, originando linearizações 
diferentes quando muda de ponto 
de funcionamento, este tipo de con- 
trolo não é aplicável. Nestas situa- 
ções, recorre-se ao controlo adap- 
tativo que consiste na incorporação 
de um segundo nível de retroacção 
no sistema de controlo. Esta se- 
gunda malha consiste num meca- 
nismo de aprendizagem que per- 
mite adaptar (ajustar de uma 
maneira óptima num certo sentido) 
os parâmetros do controlador como 
ilustra a figura 4. O controlador con- 
tinua a ser um sistema linear e o 
mecanismo de adaptação dos seus 
parâmetros pode ser muito variado. 


Mecantamo | 
a de 
adaptação 


parâmetros 
de 


Fig. 4 Sistema de controlo adaptativo. 
O controlador C é um sistema de parâme- 
tros variáveis. 


Por uma questão de tractabilidade 
matemática, a investigação nas últi- 
mas décadas na área do controlo 
adaptativo, foi orientada no sentido 
de encontrar regras de adptação de 
parâmetros para controladores line- 
ares que resultassem num sistema 
global estável ([Morse 80], [Good- 
win 80]) e também no de determinar 
condições que assegurassem a ro- 
bustez do sistema de controlo a di- 
ferentes tipos de perturbações. Os 
resultados que se obtêm com este 
tipo de cadeia de controlo revelam- 
se bastante bons quando está em 
causa um sistema linear ainda que 


variante no tempo (com um limite 
superior para a taxa de variação). 
Em contraste, muito pouco trabalho 
teórico foi realizado no que diz res- 
peito ao uso de modelos não-linea- 
res para os sistemas controlador e 
controlado. Quando o sistema a 
controlar é caracterizado por gran- 
des não-linearidades, esta opção 
parece ser a única admissível pois 
o sucesso de um controlador linear 
adaptativo é comprometido pelas 
sucessivas alterações do ponto de 
funcionamento do sistema (que ori- 
ginam linearizações completamente 
diferentes em curtos espaços de 
tempo). Note-se que esta é sempre 
a situação em que se cai quando se 
consideram modelos realistas dos 
sistemas a controlar (incluindo, por 
exemplo, no caso de sistemas me- 
cânicos, folgas, atrito, não rigidez 
das diversas partes, etc.). A pouca 
teoria existente para guiar a análise 
e sintese de sistemas não-lineares 
tem limitado a utilização destes no 
controlo. 


O recente desenvolvimento da área 
das redes neuronais, tem motivado 
a sua aplicação em sistemas de 
controlo. Estas, tendo grandes po- 
tencialidades para fazer mapeamen- 
tos não-lineares, são sistemas que 
podem “aprender” através de exem- 
plos em vez de terem que ser total- 
mente sintetizados (figura 5). De 
facto, as redes neuronais têm-se re- 
velado particularmente hábeis a li- 
dar com sistemas e sinais reais, to- 
mando em conta diversos aspectos 
de difícil modelização. 


saidas 
| desejadas 


entradas 


Fig. 5 A aprendizagem de uma rede neu- 
ronal. 


Embora o estudo da utilização des- 
tes modelos conexionistas em siste- 
mas de controlo comece agora a 
ser feito como uma extensão das 
técnicas conhecidas do controlo li- 
near adaptativo [Narendra 90], a 
maioria das aplicações desenvolvi- 


das, são restritas a problemas espe- 
cíficos e usam linguagens próprias 
dos seus autores. À robótica é o 
campo que tem concentrado a maior 
parte do esforço dos investigadores 
que se têm dedicado ao uso de re- 
des neuronais no controlo automá- 
tico de sistemas [Krose 91]. Mais 
precisamente, as redes têm sido 
usadas para dirigir manipuladores 
mecânicos, do género do esquema- 
tizado na figura 6, que são sem dú- 
vida a forma mais importante de “ro- 
bot" industrial. É sobre este tipo de 
utilização que incide este trabalho. 


Fig. 6 Um manipulador robótico com três 
graus de liberdade: três juntas de rotação. 


O estudo destes manipuladores ro- 
bóticos envolve vários problemas 
dos quais se podem salientar os tra- 
tados exaustivamente em [Craig 86]: 


* Cinemática directa. A cinemática 
é a ciência que estuda o movi- 
mento independentemente das 
forças que o causam. O estudo 
da cinemática de manipuladores 
envolve uma série de proprieda- 
des geométricas e relaciona-se 
com o cálculo da posição, veloci- 
dade, aceleração e outras deriva- 
das de ordem superior das variá- 
veis de posição. Um problema 
básico mas de grande importância 
é o da cinemática directa, que 
consiste na determinação da posi- 
ção e orientação do efector-termi- 
nal do manipulador, dado um con- 
junto de ângulos nas juntas. Este 
problema é muitas vezes referido 
como o da mudança de represen- 
tação da posição do manipulador 
do espaço-junta para o espaço- 
cartesiano. 

* Cinemática inversa. Este é o pro- 
blema inverso do anterior: calcular 
os possíveis conjuntos de ângulos 
nas juntas a usar para obter dada 


posição e orientação do efector- 
terminal do manipulador. A cine- 
mática inversa não é um problema 
tão simples como o da cinemática 
directa. Uma vez que as equações 
da cinemática são não-lineares, a 
sua solução é muitas vezes im- 
possível de determinar analitica- 
mente. A existência de solução e 
as soluções múltiplas são também 
questões que se levantam devido 
a natureza das equações (a exis- 
tência ou não de uma solução ci- 
nemática define o espaço de tra- 
balho do manipulador). 

* Dinâmica. Em dinâmica estuda- 
se 0 movimento como consequên- 
cia da aplicação de forças sobre 
corpos. Para conduzir um manipu- 
lador desde o repouso inicial, fa- 
zendo o efector-terminal percorrer 
uma dada trajectória e chegando 
ao repouso final, um complicado 
conjunto de binários tem que ser 
aplicado nos actuadores das jun- 
tas do “robot”. À forma destas fun- 
ções de binário depende das ca- 
racterísticas espaciais e temporais 
da trajectória, das características 
do manipulador (massa e dimen- 
sões dos troços, atrito nas juntas, 
etc.) e da carga transportada no 
efector-terminal. 

* Planeamento de trajectórias. 
Uma maneira comum de fazer um 
manipulador mover-se de um 
ponto para outro de maneira su- 
ave é especificar para cada junta 
em movimento descrito por uma 
função suave do tempo. A ma- 
neira de calcular essas funções 
de movimento para as juntas, da- 
dos os pontos inicial e final (e 
possivelmente alguns intermédios) 
desejados para o efector-terminal 
é o problema do planeamento de 
trajectórias. 


A maioria dos sistemas neuronais 
de controlo de “robots” propostos 
até agora incluem apenas a resolu- 
ção do problema da cinemática in- 
versa e deixam ao cuidado de mé- 
todos tradicionais o problema da 
dinâmica como referem [Pearlmutter 
88] e [Krose 91]. Este tipo de siste- 
mas de controlo é tratado na se- 
gunda parte deste trabalho. 
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Na terceira parte do texto são estu- 
dados os sistemas que contemplam 
já o problema do controlo dinâmico. 
Esta é a estruturação que nos pare- 
ceu mais lógico fazer devido à clara 
diferença de natureza dos proble- 
mas tratados. 


As conclusões que se podem tirar 
desta pesquisa bibliográfica efe- 
ctuada e as possíveis direcções fu- 
turas de trabalho nesta área são o 
tema da última parte do artigo. 


2. CINEMATICA 


Os problemas de controlo cinemá- 
tico que surgem no campo da robó- 
tica resumem-se, quase exclusiva- 
mente, à determinação da cine- 
mática inversa de manipuladores. 
E um problema estático (que não 
envolve dinâmica) e que consiste 
na inversão de um mapeamento 
não-linear conhecido. 


O esquema da figura 2 pode ser 
usado para ilustrar a operação de 
um controlador cinemático: S repre- 
senta o mapeamento não-linear 
dado pela cinemática directa do ma- 
nipulador em causa e C é o contro- 
lador que tem por função “calcular” 
a cinemática inversa de S - deve de- 
terminar quais as posições das jun- 
tas do manipulador, u, que originam 
uma dada posição e orientação de- 
sejadas para o efector-terminal, r. 

As potencialidades na síntese de 
mapeamentos não-lineares revela- 
das pelas redes neuronais e em 
particular pelos perceptrões multi- 
camada, motivam o seu uso nestes 
sistemas de controlo estático. Nesta 
situação sugere-se a utilização de 
uma rede neuronal como sistema 
controlador cinemático como des- 
creve a figura 7. 


Fig. 7 Rede neuronal como controlador. 


Pretende-se que a rede RC 
aprenda a gerar o sinal de entrada 
do sistema, u, que faça com que a 
saída deste, y, seja o mais próximo 


possível da desejada, y,, fornecida 
a RC. O treino de uma rede para 
este fim não pode ser feito da ma- 
neira habitual ilustrada na figura 5 
pois não é conhecido o erro come- 
tido à saida da rede. Como são es- 
pecificadas apenas as saídas dese- 
jadas para o sistema e não as 
saídas desejadas para a rede, a 
medida de erro disponível é a pre- 
sente à saída do sistema, yyy. 
Vários métodos foram sugeridos re- 
centemente para a aprendizagem de 
uma rede neuronal nestas circuns- 
tâncias como é descrito sucinta- 
mente em [Tulunay 91]. Estes méto- 
dos, bem como referência a artigos 
que descrevem os seus resultados 
em diversas aplicações, são expos- 
tos ao longo deste capítulo. 

Há ainda vários outros tipos de so- 
luções na aplicação de métodos co- 
nexionistas no controlo cinemático 
que não são abordados neste texto. 
Em [Josin 88b] é utilizado um per- 
ceptrão multi-camada para fazer 
correcções a um método numérico 
clássico de cálculo da cinemática 
inversa de manipuladores, melho- 
rando assim o seu desempenho. 
Em [Tsutsumi 87] e [Tsutsumi 88] é 
descrita a utilização de redes de 
Hopfield no controlo de posição de 
um manipulador planar cuja tarefa é 
fazer o efector-terminal atinjir uma 
posição final evitando obstáculos fi- 
xos dados. Em [Cruse 90] é tratado 
o problema da redundância que 
surge quando o manipulador em 
causa tem excessivos graus de li- 
berdade para a tarefa a realizar. 


2.1. Aprendizagem Supervisada 


Uma das soluções mais simples em 
que se pode pensar para obviar ao 
problema descrito é usada em [Jo- 
sin 88a]. Esta consiste em treinar a 
rede a imitar o funcionamento de 
um controlador clássico conhecido 
como ilustra a figura 8. A rede 
aprende minimizando o erro e, me- 
dido entre a sua saída, u, e a saída 
do controlador conhecido, u,. 


Josin utilizou um manipulador pla- 
nar de dois troços (simulado). A po- 
sição do efector-terminal, (x,y), é fa- 
cilmente relacionada com os valores 
dos ângulos das juntas, (0,,0,), e 


esta relação, embora não seja injec- 
tiva, pode-se inverter se se conside- 
rar apenas uma das duas configura- 
ções possíveis em quase todo o 
espaço de trabalho. A relação entre 
(0,.0,) e (x,y) assim obtida pode 


Controlador 
conhecido 


Fig. 8 Aprendizagem supervisada: RC 
imita um controlador conhecido. 


ser ensinada a uma rede neuronal 
como descreve A figura 8. Josin 
usou um perceptrão multi-camada 
com duas entradas, 32 unidades 
numa camada escondida e duas 
unidades de saída. Treinando esta 
rede com 25 padrões igualmente 
distribuidos no espaço cartesiano, 
obteve bons resultados ainda que 
numa área restrita do espaço de 
trabalho. [Guez 88a] usa também o 
método descrito ao treinar um per- 
ceptrão com duas camadas escon- 
didas de 10 unidades cada para de- 
terminar a cinemática inversa de 
manipuladores planares de 2 e 3 
graus de liberdade. [Sobajic 88] 
descreve experiência semelhante 
com um “braço-robot” real. [Artea- 
gaBravo 90] utiliza também a apren- 
dizagem supervisada para treinar 
perceptrões para calcularem a cine- 
mática directa (uma camada escon- 
dida) e inversa (duas camadas es- 
condidas) de um manipulador de 2 
troços. 


Contudo, o uso prático deste tipo de 
treino para a rede controladora é 
muito limitado. A principal desvanta- 
gem consiste no facto de se ter que 
coinhecer à priori a cinemática in- 
versa. Assim, a Única vantagem em 
usar a rede face a fazer os cálculos 
directamente é a da eficiência e 
acontece nos casos em que a cine- 
mática é muito complexa exigindo 
que se recorra a morosos métodos 
numéricos para determinar a sua 
solução. 

Há muito mais interesse em procu- 
rar uma solução em que a rede 
aprenda através da sua própria ex- 


periência com o sistema, com os er- 
ros que a sua acção sobre ele 
possa provocar. Estes tipos de solu- 
ções, geralmente designados por 
“self-supervised”, são apresentados 
nas subsecções seguintes. 


2.2. Aprendizagem Generalizada 


Como sugere a figura 7, a rede con- 
troladora deve aprender a fazer o 
mapeamento inverso do sistema a 
controlar. Assim, quando não se 
sabe a cinemática inversa, a ma- 
neira mais simples de obter os pa- 
res entrada — saida desejada neces- 
sários para o treino da rede é usar o 
próprio sistema para os gerar. 


Exitando o sistema S com diversas 
entradas, u,, obtêm-se saídas, y. 
Estas são fornecidas como entradas 
para a rede RC tendo como saidas 
desejadas os valores u, usados (ver 
figura 9). 

A aprendizagem evoluirá no sentido 
de minimizar o erro e, aproximando 
então RC do operador inverso de 5. 
A limitação deste método prende-se 
com o facto de não ser possível, na 
maior parte dos casos, treinar a 
rede nas zonas de funcionamento 
de interesse. Isto acontece visto 
que não se sabe que valores de u, 
usar para obter os y nas regiões em 
que a rede será usada depois em 
funcionamento. O sucesso deste 
método é assim muito dependente 
da escolha das entradas u, e da ca- 
pacidade de generalização da rede. 


Fig. 9 Aprendizagem generalizada. RC é 
treinada para ser o operador inverso de 5. 


Este problema agrava-se quando o 
sistema S não é globalmente inver- 
tível, [Demers 92] usa a aprendiza- 
gem generalizada para resolver pro- 
blemas de controlo cinemático de 
manipuladores mas divide primeiro 
o espaço de trabalho em zonas 
onde S é localmente invertível. 


3] 


32 


2.3. Aprendizagem Especializada 


Para que o treino da rede controla- 
dora seja feito nas regiões onde futu- 
ramente tenha que trabalhar, é pre- 
ciso ter um metodo que nos permita 
escolher livremente quais as entradas 
a fornecer a RC durante a fase de 
aprendizagem. A interacção de RC 
com o sistema 5 tem que ser então, 
também durante o treino, a descrita 
na figura 7. Afim de que se processe 
a aprendizagem com este tipo de in- 
teracção, é preciso ter um meio de 
“transformar” o erro medido à saída 
do sistema, no erro à saída da rede. 


O modo como se implementa esta 
aprendizagem caso se conheça o 
jacobiano do sistema S, está repre- 
sentado na figura 10. 


Fig. 10 Aprendizagem especializada. E ne- 
cessário conhecer o jacobiano de S para 
obter a informação de treino para RC. 


O erro que aqui orienta o treino é 
justamente a diferença entre a saída 
desejada para o sistema S e a que 
realmente se obtem por acção da 
rede RC. A maneira de implementar 
um “gradient descent” nesta função 
de erro que não é medida à saída 
da rede, consiste em utilizar o co- 
nhecimento do jacobiano de S para 
fazer uma retropropagação do erro e 
que origine a sua minimização. 

Este tipo de minimização numérica 
executado durante o treino, consiste 
em fazer deslocações no espaço 
dos pesos de RC no sentido de 
maior decrescimento de e, dado 
pelo simétrico do seu gradiente em 


ordem aos pesos. À actualização 
que cada peso p da rede da rede 
deve sofrer na fase de aprendiza- 
gem é então: 


g(n+ 1) = p(n) + Ap(n), Ap(n) =-n ã (nm), n>0 


Sendo é = u - u, onde ud é o valor 
que a rede devia gerar para se obter 
y = ys (ou seja S(u,) = y,), tem-se: 


de = de de = IB de = de de 


dp=dedp=de dp=duodp | 


Logo conhecendo o jacobiano de 
9, JU) = =, pode-se ajustar os pe- 
sos de RC de modo a executar um 
“gradient descent” em e pois, como 
mostra [Rumelhart 86), e calcula- 


-se pelo algoritmo da “back-propa- 
gation”. O jacobiano faz então a 
“transformação” que se pretendia: 
do erro à saída do sistema para O 
erro no sinal de controlo. 


Este metodo de treino exige o co- 
nhecimento das derivadas da fun- 
ção y = S(u). Em [Psaltis 87] é su- 
gerido um procedimento para que a 
aprendizagem possa ainda ser feita 
nas situações em que o jacobiano 
não é conhecido à priori. À ideia 
apresentada consiste em estimar 
continuamente o jacobiano do sis- 
tema S através de: 


dy S(u+6,|)-S(u) & 
du BM 


ul 


Os vários à, têm que ser escolhidos 
consoante o sistema a controlar, a 
sua zona de funcionamento e a en- 
trada u,e saída y, em questão. Este 
tipo de estimação dá origem a erros 
que, dependendo de sistema para 
sistema, podem ser muito grandes. 


* Para maior simplicidade de notação omitiu-se a dependência de n nestas expressões. 
Note-se também que as derivadas parciais indicadas não são quantidades escalares 
visto que u. y, ee e são vectores. Assim, não se explicita na expressão que: 


de 


de , ” ; ; 
.—— 6 são vectores de dimensões dadas pelo número de entradas e saidas de S. 


dD dp 


Je 


É 


. E É uma matriz com dimensões de acordo com as dos vectores referidos. 


* |, é um vector de dimensão igual ao número de entradas de S, com a j-ésima coor- 
denada de valor unitário e todas as outras nulas. 


[Psaltis 88] descreve a aplicação 
das aprendizagens generalizada e 
especializada num problema sim- 
ples de controlo cinemático em que 
o sistema a controlar é uma trans- 
formação de coordenadas polares 
para rectangulares. Nesta experiên- 
cia RC era um perceptrão de 2 ca- 
madas com 10 unidades na camada 
escondida e os melhores resultados 
foram obtidos quando se fez pri- 
meiro uma aprendizagem generali- 
zada e depois, em zonas mais res- 
tritas do espaço cartesiano, a 
aprendizagem especializada. [Ta- 
naka 91] resolve a cinemática in- 
versa de um manipulador planar de 
3 juntas usando uma rede neuronal 
cujo treino é feito de maneira seme- 
lhante à descrita — através do co- 
nhecimento do jacobiano da trans- 
formação directa. [Werntges 90] 
sugere um método empírico alterna- 
tivo para transformar o erro e no 
erro € e aplica-o à resolução da ci- 
nemática inversa de um manipula- 
dor planar de 2 graus de liberdade 
obtendo resultados piores do que 
quando usa o jacobiano de S. 


2.4. Com uma Rede Neuronal a 
Simular o Sistema a Controlar 


Neste subcapítulo expõe-se um mé- 
todo que evita os possíveis erros na 
estimação do jacobiano do sistema 
a controlar. 


Recordemos que o problema de 
que estamos em presença consiste 
em obter a informação necessária 
para o treino da rede controladora 
pelos métodos conhecidos, o erro à 
sua saída, uma vez que dispômos 
apenas do erro à saída do sistema 
controlado. Como refere [Barto 90], 
este problema é análogo ao de ob- 
ter informação de treino para uma 
unidade escondida de um percep- 
trão multi-camada (ver figura 11). 


Fig. 11 O problema de treinar uma unidade 
escondida: como culpá-la pelos erros me- 
didos à saida da rede? 


Para qualquer unidade escondida, a 
porção de rede interposta entre ela 
e a saída da rede faz o papel do 
sistema S na figura 7 (numa rede 
“feed-forward”, cada unidade está a 
“controlar” as que se posicionam à 
sua frente). Os métodos que se 
aplicam para determinar o compor- 
tamento pretendido para as unida- 
des escondidas podem então tam- 
bém ser aplicados na determinação 
do comportamento desejado na 
nossa rede RC. 


Para o problema ilustrado na figura 
11, a solução é encontrada pelo al- 
goritmo da “back-propagation” pois 
o “sistema a controlar” é, também 
ele, uma rede neuronal. A analogia 
entre este problema e o que nos in- 
teressa, e o facto de desconhecer- 
mos o sistema a controlar, sugere 
então que utilizemos no treino da 
rede controladora, uma rede auxiliar 
que simule o sistema (método pro- 
posto em [Jordan 88] e descrito 
também em [Kawato 90]). 

O treino de uma rede RS para 
aprender o comportamento do sis- 
tema S pode ser feito utilizando o 
próprio sistema, através da aplicação 
directa de um algoritmo de “back- 
propagation” como mostra a figura 
12 ([Farotimi 90] e [Sudharsanan 91] 
sugerem métodos para identificação 
de mapeamentos  não-lineares 
usando redes neuronais dinâmicas). 


Fig. 12 O treino da rede R5 para simular o 
sistema a controlar, 


Uma vez treinada a rede RS, pode- 
se proceder ao treino da rede con- 
troladora RC da forma sugerida 
pelo método de aprendizagem para 
as unidades escondidas. O pro- 
cesso de aprendizagem é ilustrado 
na figura 13 e consiste na aplicação 
do algoritmo da “back-propagation” 
a rede formada pela ligação de RC 
com RS, tendo o cuidado de não al- 
terar os pesos de RS. A propaga- 
ção do erro e através da rede RS 
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dá conta da estimação do jacobiano 
de S utilizado no método descrito 
na subsecção anterior. 


Fig. 13 A aprendizagem da rede controla- 
dora RC. O erro e é propagado através da 
rede RS previamente treinada. 


O treino da rede RS levanta o 
mesmo problema que o treino de 
RC pelo método da aprendizagem 
generalizada - o de não ser possi- 
vel fazer com que o treino ocorra 
nas regiões de interesse. Neste 
caso as consequências de um 
treino pior da rede em questão são 
menores pois RS só vai ser utili- 
zada para determinar a direcção 
dos passos no espaço dos pesos 
de RC (um erro na determinação da 
direcção ideal para os passos, 
desde que não seja muito elevado, 
vai fazer só com que a aprendiza- 
gem de RC seja mais lenta). 
O treino de RC já pode ser feito nas 
regiões de interesse pois, como su- 
gere a figura 13, os padrões usados 
podem ser escolhidos livremente e 
portanto ser representativos das si- 
tuções que a rede vai encontrar 
quando em funcionamento depois 
de treinada. 

[Elsley 88] sugere o uso de uma 
rede para estimar o jacobiano de 
uma transformação não-linear e uti- 
liza-a para melhorar o desempenho 
de controladores cinemáticos tradi- 
cionais. 


2.5. Aprendizagem Indirecta 


Apresenta-se em seguida outro mé- 
todo de aprendizagem para solucio- 
nar o problema encontrado na sub- 
secção 2.2: como treinar RC nas 
regiões em que será depois utili- 
zada para controlar S (figura 9). 

Como a dificuldade é não se saber 
as entradas u,a fornecer a S du- 
rante o treino, podemos pensar em 
usar a própria rede RC que está a 
ser treinada para os gerar. Uma so- 


lução para resolver o problema é 
descrita na figura 14. 


Figura 14: Aprendizagem indirecta. A pró- 
pria rede RC é usada para gerar os pa- 
drões de treino. 


A aprendizagem evoluirá no sentido 
de minimizar e = u - us Como o erro 
que pretendemos ver minimo é e = 
Y - Yye a minimização deste (y = Ys) 
implica a minimização de e (u=u,), 
podemos então pensar que este 
método de treino nos conduzirá ao 
resultado pretendido. 

A limitação deste método prende-se 
com o facto da minimização de e 
não implicar a minimização de e. 
Como nota [Psaltis 87], a rede RC 
pode convergir para um sistema 
que apresente uma saida cons- 
tante, U, para qualquer entrada. 
Neste caso tem-se, para qualquer 
entrada yy Ug=U, y= SU) = Y, 
u=Ue então e = U-Ué nulo mas 
e=Y-y,não o é. 

Este método não é no entanto total- 
mente desprovido de interesse pois, 
como se descreve em [Aguiar 90), 
pode ser usado conjuntamente com 
outros para melhorar os resultados 
nas trajectórias em que se pretende 
que o sistema S actue. Isto conse- 
gue-se utilizando este tipo de apren- 
dizagem indirecta numa rede RC 
previamente treinada, ainda que em 
regiões mais gerais, por um dos mé- 
todos apresentados anteriormente. 
Esta aprendizagem indirecta é des- 
crita em [Elsey 88] como sendo uma 
das soluções para o treino de redes 
neuronais para controlo cinemático de 
manipuladores robóticos em alterna- 
tiva às que requerem o conhecimento 
prévio do controlador desejado. 


3. DINÂMICA 


Como refere [Pearlmutter 88], os al- 
goritmos comuns de aprendizagem 
para redes neuronais podem ser 


pensados como caixas negras má- 
gicas. Primeiro mostra-se à caixa 
negra uma série de padrões e a 
classificação correcta de cada um 
deles, depois de algum tempo, a 
caixa extrai a estrutura interna dos 
padrões aprendendo a produzir a 
saída pretendida para qualquer pa- 
drão de entrada. O conjunto de pa- 
drões não tem qualquer estrutura 
temporal e a caixa negra não tem 
memória: as respostas à entrada no 
instante actual não dependem de 
entradas em instantes anteriores. 


Em contraste, no controlo de siste- 
mas dinâmicos, um vector de dados 
de sensores é continuamente ob- 
servado e um vector de sinais de 
controlo tem que ser continuamente 
gerado. O estado do sistema não é 
em geral completamente conhecido 
com a leitura dos sensores num 
dado instante; o estado pode ser in- 
ferido através da observação dos 
dados dos sensores por um periodo 
de tempo (figura 15). O sistema 
pode ter constantes de tempo de di- 
versas ordens de grandeza e os si- 
nais de controlo não têm necessari- 
amente um efeito imediato. Quando 
se treina um sistema para a tarefa 
do controlo dinâmico, é preciso ter 
em conta que o que se procura são 
os sinais de controlo que originem 
uma dada trajectória para os sinais 
dos sensores. 
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Fig. 15 O controlo de um sistema diná- 
mico: um problema com estrutura tempo- 
ral, 


O facto das técnicas mais comuns 
para aprendizagem em redes neu- 
ronais terem a referida natureza es- 


tática justifica que grande parte do 
trabalho dos investigadores que se 
dedicaram à sua aplicação ao con- 
trolo e à robótica tenha sido orien- 
tado para a resolução dos proble- 
mas de cinemática apresentados no 
capítulo anterior. Neste capítulo 
apresentam-se algumas das solu- 
ções até agora propostas para a in- 
tegração de modelos conexionistas 
no controlo de sistemas dinâmicos 
não-lineares. 

Uma classe de métodos de treino 
de redes neuronais que procuram 
resolver o carácter temporal deste 
problema é o conhecido por “Rein- 
forcement Learning” [Werbos 90]. 
Estes métodos baseiam-se no uso 
de um sistema auxiliar, muitas ve- 
zes também uma rede neuronal, re- 
ferido como “Adaptive Critic Ele- 
ment”. O ACE, baseado no 
comportamento que vai observando 
do sistema a controlar, fornece uma 
indicação de desempenho que é 
usada no treino da rede controla- 
dora. À indicação de desempenho 
dada pelo ACE é particularmente 
importante em problemas em que o 
efeito do sinal de controlo só é visi- 
vel para o controlador muito tempo 
depois daquele ter sido aplicado. 
Isto acontece no conhecido pro- 
blema de equilibrar um pêndulo in- 
vertido numa plataforma móvel; a 
utilização do “Reinforcement Lear- 
ning” na resolução deste problema 
é descrita em [Anderson 87], [Barto 
88] e [Rosen 91]º . Embora este 
tipo de métodos comece já a ser 
tratado com alguma generalidade 
([Schmidhuber 90a], [Schmidhuber 
90c] e [Thrun 91]), a sua aplicação 
tem sido exclusivamente dedicada a 
problemas da área da programação 
dinâmica” , pelo que não será ob- 
jecto da descrição feita nos subca- 
pítulos seguintes. 


* Em qualquer destes trabalhos o controlador tem acessíveis as posições e velocida- 
des do pêndulo e da plataforma e apenas uma informação de punição quando o 
pêndulo cai ou a plataforma se desloca para fora de certos limites estabelecidos à 


priori. 


* Programação Dinâmica é a área da Teoria do Controlo Óptimo que trata os proble- 
mas de minimização de uma função de custo através de um algoritmo de decisão 
sequencial. Normalmente a função de custo é tal que a decisão tomada num dado 
instante só tem efeito instantes de tempo depois (jogos de estratégia como o Xa- 
drez e as Damas são exemplos de problemas de decisão sequencial). 
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3.1. Redes Neuronais Integradas 
em Sistemas Clássicos de 
Controlo. 


Uma das utilizações mais frequen- 
tes de redes neuronais em sistemas 
de controlo dinâmico consiste numa 
interacção com controladores con- 
vencionais. Normalmente as redes 
são usada para estimar os parâme- 
tros óptimos a usar num controlador 
consoante o estado do sistema a 
controlar. São alternativas aos me- 
todos clássicos de controlo adapta- 
tivo e deixam os referidos proble- 
mas de natureza temporal ao 
cuidado de controladores já muito 
bem estudados. 


O esquema da figura 16 representa 
este tipo de utilização para as re- 
des. A rede estimadora RE fornece 
os parâmetros para o controlador C 
consoante o ponto de funciona- 
mento do sistema S. Em muitas 
aplicações, além de ut) e y(t), RE 
recebe como entrada outras variá- 
veis que lhe permitem estimar cor- 
rectamente o estado de 5. 


parametros 
po 


FLt) 


Fig. 16 Alternativa aos métodos clássicos 
de controlo adaptativo: uma rede neuronal 
determina os parâmetros do controlador. 


O treino desta rede RE é feito de 
maneira supervisada exigindo-se 
então que se saiba a priori quais os 
parâmetros a usar no controlador 
para diversas situações de funcio- 
namento do sistema. Esta é a 
grande limitação deste tipo de ar- 
quitectura e faz com que as suas 
vantagens face aos outros métodos 


de controlo adaptativo sejam “ape- 
nas” as que se relacionam com a 
velocidade de determinação dos pa- 
râmetros para o controlador *. 

Em [Guez 87] e [Guez 88b] é usada 
a arquitectura descrita para contro- 
lar um manipulador com um só grau 
de liberdade. Utiliza-se um controla- 
dor PD* e uma rede neuronal diná- 
mica para determinar os seus 
parâmetros. As variáveis de estado 
de RE correspondem aos parâme- 
tros de Ce a topologia dos esta- 
dos estáveis de RE é determinada 
de modo a que estes correspon- 
dam aos valores desejados para 
os parâmetros de C (são conheci- 
dos algoritmos para sintetizar re- 
des desta maneira). No caso deste 
trabalho, os parâmetros desejados 
para €C são determinados impondo 
a posição dos pólos da função de 
transferência do sistema em ca- 
deia fechada (admitindo no seu 
cálculo a dinâmica de S substituída 
pela sua linearização). [Kumar 90] 
faz utilização semelhante das re- 
des neuronais para colocação arbi- 
trária de polos. [Leahy 91] e [Kara- 
kasoglu 91] utilizam redes 
neuronais para estimar característi- 
cas de manipuladores robóticos 
(fricção, inércia, carga transpor- 
tada, tec.) que depois fornecem a 
controladores desenhados da 
forma clássica através do conheci- 
mento da forma geral da dinâmica 
dos manipuladores. 


Outro tipo de utilização de redes 
neuronais integradas em sistemas 
de controlo clássicos é sugerida em 
[Miyamoto 88] e ilustrada na figura 
17. Consiste em gerar o sinal de 
controlo como soma de duas parce- 
las: uma proveniente de um contro- 
lador convencional de “feed-back”, 
C, outra proveniente de uma rede a 
funcionar como controlador “feed- 
forward”, RC. O treino desta rede é 


* Pode ser importante que o tempo de determinação dos parâmetros correctos seja 
independente do número de parâmetros a estimar. Isto não acontece nos métodos 
clássicos de controlo adaptativo mas é possível com uma rede neuronal a estimar 


os parametros. 


* Proporcional-Diferencial é a designação e um controlador clássico em que o sinal 
de controlo é encontrado como combinação linear do sinal de erro (entre a saída 
desejada e a que realmente acontece no sistema a controlar) e da sua derivada: 


u(t) = - Kelt) - Ke (0. 


feito com base no sinal de saída do 
controlador de “feed-back” pois, 
quanto melhor fôr o desempenho da 
rede (mais próxima esta estiver da 
dinâmica inversa do sistema), me- 
nor deve ser este sinal. 


Fig. 17 Um controlador de “feed-back' con- 
vencional e uma rede neuronal como con- 
trolador feed-forward”. 


[Hosogi 90] faz o controlo de um 
manipulador planar de dois troços 
por este método mas tendo acesso 
não só às posições mas também as 
velocidades de cada junta. [Kawato 
90] faz o estudo da estabilidade dos 
métodos de aprendizagem usados 
neste tipo de arquitectura. [Kata- 
yama 91] faz controlo de posição e 
força de manipuladores por um meé- 
todo semelhante ao apresentado: 
além do controlador clássico, usa 
duas redes neuronais como contro- 
ladores “feed-forward” — uma para o 
controlo de posição e outra para O 
controlo de força. 


Diversas outras maneiras de integrar 
modelos conexionistas em sistemas 
clássicos de controlo foram sugeri- 
das na literatura, como por exemplo 
em [liguni 91] onde é usada uma 
rede neuronal para melhorar a ro- 
bustez de um LOR”, compensando 
as não-linearidades e incertezas 
presentes no sistema a controlar. 


3.2. Uma Solução Conexionista 
Simples: o CMAC 


Neste subcapítulo introduz-se o 
CMAC (“Cerebellar Model Arithmetic 
Computer”), uma solução para o 
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controlo de sistemas dinâmicos 
não-lineares descrita por exemplo 
em [Kraft Ill 90] mas conhecida já 
desde a década de 70º. 


Para descrever o CMAC, considere- 
se o sistema a controlar S, de 1.º 
ordem, caracterizado pela seguinte 
equação às diferenças, depois de 
discretizado: 


ytk + 1) = Áyth),ulh)) 
Esta equação, que reflecte o com- 
portamento entrada-saída do sis- 
tema, pode ser vista de uma ma- 
neira alternativa de maior interesse 
do ponto de vista do controlo: 


u(k) = 9(y(M), y(k + 1))º 

À representação gráfica de g é uma 
superfície que fornece o controlo, 
u(k), a aplicar ao sistema consoante 
a saída actual, y(k), e a pretendida 
no instante seguinta, y(k + 1). Caso 
o sistema S seja linear, esta super- 
fície degenera num plano. 

A ideia básica do CMAC é gerar 
uma aproximação desta superfície a 
partir de dados de entrada e saída 
do sistema e usá-la depois no con- 
trolo do mesmo como ilustra a fi- 
qura 18. 


Vale + 1) dan 


Fig. 18 “Cerebellar Model Arithmetic Com- 
puter”. 


Se a forma da dinâmica do sistema, 
bem como todos os seus parâme- 
tros, forem conhecidos, a superficie 
pode ser calculada à priori e guar- 
dada em memória. Dadas as posi- 
ções actual e seguinte desejada, 
|.e., O enedereço de memória, o si- 
nal de controlo a aplicar pode ser 
encontrado por uma simples con- 


Linear Optimal Regulator” é o controlador que se obtem na Teoria do Controlo 


Óptimo para sistemas lineares e invariantes no tempo de parâmetros conhecidos à 


priori. 


º Este modelo de controlo é baseado no proposto em [Albus 72] para a modelização 
do controlo do movimento dos músculos ("Cerebellar Model Articulation Control”). 
“O dominio de g é restringido ao subconjunto de Rº em que a inversão feita é possi- 
vel. Tem que se ter ainda em conta o problema dos pontos do domínio em que 


mais que uma solução é possivel. 
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sulta do valor guardado nesse en- 
dereço. 


O problema mais interessante su- 
cede quando os parâmetros do sis- 
tema são desconhecidos e a super- 
fície tem que ser aprendida em 
tempo real a partir de dados de en- 
trada e saída do sistema. Há diver- 
sas maneiras de proceder a uma 
aprendizagem deste tipo. Uma rela- 
tivamente simples e robusta, repre- 
sentada na figura 19, consiste em 
actualizar iterativamente os valores 
guardados em memória que repre- 
sentam a superfície a identificar, 
através da lei 


MAk + 1) = MA) & n[u(k) - MAK)] 


onde Mk) representa o valor pre- 
sente da posição de memória em 
questão (determinado por y(k) e 
yY(k+ 1)), Mik+1) é o valor actuali- 
zado, ulk) é a entrada do sistema 
no instante n e mn é um parâmetro 
de aprendizagem que toma um va- 
lor positivo entre zero e um. 


uk + |] 


Fig. 19 A aprendizagem do CMAC. 


Se M/k) é maior que u(k), é corri- 
gido através da subtração de uma 
quantidade proporcional ao erro; se 
menor, a correção é no sentido 


contrário. Se M,(k) é igual a u(k), O 
seu valor não é alterado 'º 


O CMAC tem muitas limitações e só 
é aplicável para sistemas simples, 
de ordem baixa e que funcionem 
numa zona limitada do espaço de 
trabalho. Isto sob pena de ser ne- 
cessário usar grande quantidade de 
memória e ser moroso fazer o 
treino de tal controlador. 


[Kraft Ill 90] faz um estudo compa- 
rativo deste método de controlo 
com dois algoritmos conhecidos do 
controlo adaptativo - o STR" e o 
MRAC '*. Usa como teste dois siste- 
mas simples de 1.º ordem, um li- 
near, outro não-linear. A conclusão 
principal apresentada é que o 
CMAC tem uma taxa de convergên- 
cia mais lenta do que os outros dois 
algoritmos mas apresenta um de- 
sempenho muito melhor no que diz 
respeito ao controlo do sistema 
não-linear. [Carter 90] usa o CMAC 
numa aplicação diferente: integrado 
numa cadeia de controlo inteligente. 


3.3. Perceptrões Multi-camada. O 
Problema do Comporta- 
mento Temporal 


Nesta subsecção apresentam-se 
soluções mais gerais para O con- 
trolo de sistemas dinâmicos. Usam- 
se perceptrões multi-camada em ar- 
quitecturas semelhantes as 
descritas no capítulo 2 para o con- 
trolo cinemático, mas tendo em 
atenção a natureza marcadamente 
temporal do problema a resolver. 


“ Pelo algoritmo descrito, só é actualizada uma posição de memória por ciclo de re- 
logio. Não hã transferência de informação para as posições de memória adjacentes 
o que pode ser uma desvantagem muito grande em termos de capacidade de ge- 
neralização do CMAC. Para acelerar a aprendizagem e aumentar a distribuição de 
informação, pode-se actualizar de cada vez um grupo de posições que esteja na vi- 
zinhança da seleccionada. Este tipo de generalização pressupõe um certo “bom 
comportamento” do sistema a controlar, no sentido em que estados próximos impli- 


quem sinais de controlo próximos. 


edi 


O “Self-Turning Regulator” é essencialmente um controlador clássico de “feed- 


back” com parâmetros ajustáveis. Um algoritmo de identificação do tipo minimos 
quadrados é usado para identificar o sistema a controlar. Os parâmetros do contro- 
lador são ajustados de acordo com esta estimativa. 


“O “Model Reference Adaptive Controller” é desenhado de forma a que a saida do 
sistema a controlar siga a de um modelo de referência especificado à priori. Há 
maneiras de ajustar dinamicamente os parâmetros de tal controlador de modo a 
que o sistema global em cadeia fechada seja assimptoticamente estável e portanto 
que o erro (entre as saidas do sistema a controlar e do modelo de referência) 


tenda para zero. 


